Loading...
机构名称:
¥ 1.0

本文介绍了 SceMQA,这是大学入学阶段科学多模态问答的新基准。它解决了现有基准中经常被忽视的一个关键教育阶段,涵盖高中到大学预科阶段。SceMQA 专注于数学、物理、化学和生物等核心科学学科。它融合了多项选择题和自由回答格式,确保对 AI 模型的能力进行全面评估。此外,我们的基准为每个问题提供了特定的知识点,并为每个答案提供了详细的解释。SceMQA 还以独特的方式呈现了具有相同背景但不同问题的问题,以便更彻底、更准确地评估推理能力。在实验中,我们在各种实验环境中评估了开源和闭源的最先进的多模态大型语言模型 (MLLM)。结果表明,需要进一步研究和开发以开发更强大的 MLLM,最强大的模型仅能实现 50% 到 60% 的准确率。我们的基准和分析将在 https://scemqa.github.io/ 上提供。

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日PDF文件第1页

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日PDF文件第2页

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日PDF文件第3页

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日PDF文件第4页

arXiv:2402.05138v1 [cs.AI] 2024 年 2 月 6 日PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥3.0
2024 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥4.0